Dane

Mój zbiór danych przedstawia osoby podejrzane o występowanie choroby wieńcowej. Zmienne zawierają wyniki różnych badań, poszczególne z nich zostaną omówione poniżej.

Będę korzystał z modelu SVC ponieważ nasze analizy pokazały, że jest on najlepszy do naszego problemu

Zadanie 1

Wybieramy pierwszą obserwację ze zbioru testowego. Jest to 68 letni mężczyzna z wysokim choresterolem, bólem niedławicowym, poziomem cukru powyżej 120, odwracalną wadą serca.

Ma on chorobę wieńcową. Nasz model również zaklasyfikował go jako chorego.

Zadanie 2

Powyżej stworzyłem explainer dla naszego modelu.
Poniżej mamy informację, że bardzo ważną zmienną dla modelu jest thal_rd oraz thal_n ponieważ obie opisują to samo zjawisko ich wpływ można rozpatrywać wspólnie. Występownie wady odwracalnej jest wskaźnikiem choroby ponieważ oznacza, że zmiany pojawiły się niedawno.
Zmienna ca wskazująca na ilość zwapnionych narządów jest istotnym wskaźnikiem przeciw chorobie ponieważ, większość osób chorych przejawia wartości powyżej 0.
Warto zwrócić uwagę na niejednoznaczność mniennych cp. Badany mężczyzna wykazywał ból niezwiązany z dławicą (cp_np = 1) co wskazuje na brak choroby, jak również brak bólu dławicowego. Jednak zmienna cp_a = 0 oznaczająca brak niewystępownia bólu w ogóle, wzkazuję na chorobę co jest logiczną konsekwencją wcześniejszej wartości cp_np.
Już ze wcześniejszych analz naszego zbioru danych można było wnioskować, że zmeinne ca, thal, sex, exang oraz cp są tymi najważniejszymi dla predykcji modeli.

Zadanie 3

Postanowiłem wziąć dwie obserwacje które mają maksymalną i minimalną wartość predykcji explainera (index 13, 60).
Pierwsza jest to 51 letnia kobieta. Model z bardzo dużą pewnością zaklasyfikował ją jako zdrową, co jest prawdą. Jej wyniki wszystkich istotnych dla modelu badań są dobre. Oprócz restecg które wskazuje na przerost lewej komory serca ale wpływ tego czynnika jest minimalny jeżeli inne badania wskazują na brak choroby wieńcowej.

Drugą obserwacją jest 67 letni mężczyzna posiadający chorobę wieńcową. Model ogromną pewnością przewiduję chorobę jedyną zminną która 'jest za' brakiem choroby jest thal_fd co jest spowodowane tym, że występuję już thal_rd który jest bardziej poważną zmianą mięśnia sercowego.

Ponieważ powyższe obserwację pokrywają się z naszą intuicją i nie są ciekawe pod względem badania naszego modelu postanowiłem wziąć taką obserwację która została błędnie zdiagnozowana, a jej predykcja była blisko granicy decyzyjnej.

Jest to 52-letni mężczyzna. Który posiada chorobę wieńcową, a model zaklasyfikował go jako zdrowego. Opierając się na wynikach metody LIME, występuje tu parę czynników które mogły przyczynić się do tego błędu: